Le ultime due puntate di DataKnightmare: L'algoritmico è politico, smontano completamente la narrazione sul nuovo prodotto di Anthropic, Claude Mythos, "così potente da non potercelo far usare" e sull'utilità e affidabilità degli "Agenti intelligenti".
Puntata DK 10x29 - Un tiro di dati
Che differenza c'è fra un "agente intelligente" che cancella il tuo lavoro e un modello linguistico che ti racconta la vera storia degli orsi nello spazio?
"La storia ve la racconto senza gergo perché è una storia che vale per tutti, non solo per chi fa software.
C'è un tizio che si chiama Giorg che ha una piccola azienda che produce un gestionale per agenzie di noleggio per lo più autonoleggi.
Siccome Giorg è uno che sta sempre sul pezzo, per scrivere codice si appoggia a un agente intelligente, nello specifico cursor con opus 4.6 di Anthropic.
Per i non addetti ai lavori, è lo stato dell'arte degli agenti intelligenti per scrivere codice.
Che cosa è successo?
È successo che l' agente intelligente ha cancellato tutto, ma tutto tutto tutto in nove secondi. Così, de botto, senza senso.
Ora, agente intelligente è un termine di marketing per indicare un modello linguistico con la capacità di interagire con il proprio ambiente.
Il resto della storia e le considerazioni di Vannini potete ascoltarlo su spreaker
Puntata DK - 10x28 Claude Mythos
Come sempre, quando gli AI bros annunciano, non è vero niente
Forbes scrive: Claude Mythos ha individuato vulnerabilità zero day in tutti i principali sistemi operativi e browser web in modo completamente autonomo, senza bisogno di alcun intervento umano. Apparentemente, a Forbes se la bevono un po' troppo facilmente perché nell'annuncio originale, Anthropic dice questo.
Cito. "Classificiamo ogni bug che individuiamo. Quindi inoltriamo quelli con il livello di gravità più elevato, a valutatori professionisti, affinché li verificino prima di segnalarli al responsabile del progetto."
Quindi, come sempre, siamo di fronte a uno strumento che confronta del codice con degli esempi di cosa possa essere una vulnerabilità e produce un report.
Si chiama analizzatore statico e ne esistono da decenni...
Il nuovo hobby di giocare con agenti AI intelligenti è affollato di entusiasti sperimentatori. Una nuova strada che passa tra antichi problemi e porta verso nuove incertezze.
Doveva succedere, prima o poi, ed è successo la settimana scorsa. Dopo ChatGPT, è uscita una seconda killer application per le false IA. Senza preavviso, un virtuoso utente di Github ha rilasciato i sorgenti di un agente IA molto ben fatto, perfettamente funzionante, installabile e configurabile con estrema semplicità. È Peter Steinberger, una persona di indubbio ingegno che dichiara di essere un vibe coder estremo, e di pubblicare spesso codice poco leggibile e generato tramite LLM senza controllarlo.
Cos'è esattamente Openclaw? E' un software per la creazione di agenti che si installa e gira in locale sul computer dell'utente. Un agente Openclaw si interfaccia con i servizi installati sul computer, ma è concepito principalmente per utilizzare servizi in rete e nel cloud, tra cui necessariamente uno o più LLM. Openclaw utilizza gli account personali dell'utente per i servizi con cui l'agente deve interagire; questo implica che l'agente possieda le credenziali dell'utente, tutte le password, tutti i token per essere in grado di utilizzare i servizi e le varie API. Cosa mai potrebbe andare storto?
Scrivere un agente non richiede sofisticatissime nozioni, nemmeno di IA; è un argomento antico quasi quanto l'IA stessa, e in essa completamente separato dai suoi altri settori fino a pochi anni or sono. Scrivere un agente come progetto open source è un lavoro molto impegnativo per una sola persona, anche di talento;
E qui nasce la domanda: perché l'ha fatto pubblicamente un bravissimo signor nessuno, e non Sam Altman o Dario Amodei? Perché sono troppo seri? Allora perché non l'hanno fatto Elon Musk o Satya Nadella? Altro a cui pensare? Allora perché non Aravind Srinivas oppure Mustafa Suleyman? Troppo accademici? Insomma, possibile che possa essere sfuggito ai grandissimi spacciatori di LLM di cavalcare un successo assicurato, presentandolo come progetto aperto, o come prodotto commerciale, o come qualsiasi cosa nel mezzo?